例えば「アライメントの論文」を”15分で作った”JARVISに渡してみる。 概要がすっと出てきて、 アライメントって何、みたいな対話で理解できる。 しかしRLHFがReinforcement Learning from Human Feedbackだ、ということがわかるかというとまだまだ工夫が必要。 LLM論文読み会いいね! #GPT_Findy https://t.co/nClVVFLL51 aki 2年前 続きを見る <<>> March 23, 2023 at 12:53PM @o_ob